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摘要 : 【 目的 】 利用 数据 挖掘 算法 ， 从 海量 繁杂 的 微 博 数据 中 检测 出 有 价值 的 事件 信息 。[ 方法 】 针 对 国内 具有 
代表 性 的 微 博 网 站 , 通过 使 用 微 博 网 络 开放 接口 高 效 收集 带 有 地 理 坐标 的 微 博 数据 。 使 用 K-means、KNN 和 决 
策 树 三 种 数据 挖掘 算法 ,根据 微 博 数 据 的 发 布 数 、 转 发 数 、 评 论 数 、 用 户 活跃 度 和 移动 强度 5 个 指标 构建 微 博 
的 地 理 规 律 性 特征 。 将 日 常 地 区 性 的 微 博 数据 特征 与 该 地 区 微 博 特征 的 地 理 规 律 性 进行 比较 ,从 而 检测 出 该 区 
域 是 否 有 事件 发 生 。 结果 】 以 2015 年 4 月 15 日 、16 日 的 微 博 数据 作为 测试 语 料 ,使 用 文中 提出 的 微 博 事 件 检 
测 框 架 , 成 功 检测 到 “北京 沙尘暴 "事件 ,【 局 限 ] 在 抽取 微 博 地 理 规律 性 特征 时 ,采用 的 样本 数据 偏 少 , 一 定 程 度 
上 影响 了 事件 检测 框架 的 效果 。[ 结论 ] 基于 地 理 坐 标的 微 博 事件 检测 框架 是 切实 有 效 的 , 分 析出 的 事件 信息 不 
仅 可 以 帮助 用 户 获 取 感 兴趣 的 事件 资讯 ， 而 且 可 以 协助 政府 部 门 进行 与 情 管控 和 行政 决策 。 
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在 当今 的 信息 时 代 , 互联 网 用 户 兼 有 信息 接收 
者 和 创造 者 的 双重 角色 。 互 联网 的 发 展 促使 网 络 服务 
社会 化 ， 即 网 络 服务 从 单一 化 走向 多 元 化 中 。 社 交 网 
络 代 表 各 种 社会 关系 , 它 把 素 未 谋面 的 卫生 人 、 具 有 
血缘 关系 的 亲人 以 及 具有 工作 关系 的 同事 等 组 织 在 
一 起 。 通 过 社交 网 络 平台 , 用 户 可 以 相互 交流 沟通 ， 
进而 具有 共同 价值 观 、 兴 趣 爱好 、 理 想 信念 的 人 形成 
了 许多 人 际 关 系 圈 。 随 着 社交 网 络 的 发 展 ,， 微 博 应 运 
而 生 , 开创 了 社交 网 络 服务 的 新 纪元 。 用 户 可 以 通过 
微 博 平台 构建 的 单 向 、 双 向 关注 关系 进行 信息 的 传 
播 、 获 取 和 分 享 。 微 博 用 户 可 以 通过 手机 、 电 脑 等 客 
户 端 ， 以 移动 WAP 服务 、 网 页 浏览 絮 、 即 时 通讯 IM 
软件 、 手 机 短信 等 方式 , 发 布 140 字 以 内 (包含 标点 符 
号 ) 的 文本 、 图 片 及 视频 等 信息 ， 从 而 实现 信息 的 即时 
共享 。 据 统计 , 用户 发布 的 博文 形式 多 种 多 样 ， 有 
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69.0% 的 博文 带 有 图 片 内 容 ,8.6% 的 博文 含有 短 链接 ， 
还 有 部 分 用 户 进行 视频 分 享 ， 这 些 多 媒体 信息 丰富 
和 延伸 了 微 博 。 微 博 是 一 个 实时 的 广播 平台 , 用户 可 
以 及 时 接收 来 自 被 关注 人 的 微 博信 息 ， 若 用 户 对 某 
条 微 博信 息 感 兴趣 , 可 以 对 该 微 博 进行 评论 和 转发 ， 
用 户 本 身 也 可 以 对 自己 的 听众 广播 微 博信 息 。 微 博 被 
不 断 转 发 ,， 尤其 是 经 过 意见 领袖 中转 发 后 ,信息 的 传 
播 范 围 会 呈 几 何 级 数 扩大 , 产生 “裂变 式 ” 的 信息 传 
播 效 应 。 

本 文 研 究 的 微 博 事件 是 指 被 微 博 用 户 发 布 到 微 
博 平台 , 并 且 引 发 了 大 量 用 户 的 转发 .评论 , 产生 了 
较 大 的 社会 影响 力 的 事件 。 近 年 来 ,关于 微 博 的 研 
究 越 来 越 多 , 但 关于 微 博 事件 的 研究 还 相对 较 少 。 
国内 外 微 博 事件 检测 的 研究 主要 集中 在 微 博 事件 情 
感 分 析 吕 1、 微 博 事件 传播 和 与 情 控 制 研究 中 微 博 
事件 检测 与 追踪 ! 9 、 微 博 事件 意见 领袖 识别 上 9 4 
个 方面 。 其 中 微 博 事件 检测 和 追踪 的 研究 集中 在 微 博 
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等 方面 ,基本 原理 是 对 微 博 内 容 进 行 分 词 ， 特 征 提 
取 、 到 类 分 析 ， 从 而 挖掘 出 热点 话题 。 不 同 于 传统 
的 网 页 和 博客 ,由 于 微 博 内 容 短小 的 特征 ， 很 难 提 
取出 足够 的 信息 来 判断 是 否 有 突 发 事件 发 生 ， 因 此 
基于 微 博 内 容 的 突 发 事件 检测 技术 存在 一 定 的 局 限 
性 。 本 文通 过 主流 统计 分 析 软 件 R'"， 从 微 博 的 地 理 
分 布 数据 与 特征 出 发 对 微 博 热 点 事件 进行 跟踪 、 获 
取 以 及 可 视 化 分 析 。 


2 ” 微 博 事 件 地 理 信息 获取 


为 了 获取 到 微 博 用 户 发 布 的 微 博 内 容 , 可 以 通过 
调用 新 浪 微 博 的 place/nearby timeline 接口 ， 获 取 到 某 
个 位 置 周边 的 动态 微 博 信息 。place/nearby_timeline 接 
口 返回 的 最 大 搜索 半径 是 11 132 米 ( 约 为 11 公里 ), 显 
然 这 样 能 收集 到 的 微 博 数 据 是 十 分 有 限 的。 为 了 解决 
这 个 问题 ,可 以 通过 不 断 设 定 不 同 的 经 度 (long BRO 
和 纬度 (lat 参数 ) 坐 标 ,收集 每 个 经 纬度 坐标 点 附近 的 
数据 ， 这 样 完全 可 以 采集 到 足够 的 微 博 内 容 ， 如 图 1 
所 示 : 


是 
执行 写 操作 
0 
本 地 数据 库 


更 换 经 纬度 坐标 


图 1 微 博 接口 程序 原理 
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本 文 用 搜索 圆 的 内 接 正方 形 对 微 博 内 容 待 收集 区 
域 进行 划 分 。 根 据 圆 内 接 正 方形 的 性 质 , 若 外 接 圆 的 
半径 为 11 公里 的 话 , 那么 内 接 正 方形 的 边 长 约 为 16 
公里 。 

图 2 以 北京 市 为 例 , 说 明 地 理 微 博 数据 采集 原理 。 
北京 位 于 东经 115.7°-117.4°, 北纬 39.4°-41.6°, 东西 宽 
24 1602518, 南北 长 约 176 公 里 , 因此 纬度 方向 上 大 约 
需要 10 次 坐标 设 定 , 经 度 方向 上 需要 约 11 次 坐标 设 
E, 要 覆盖 整个 北京 市 约 需 要 110 次 坐标 设 定 , 部 分 
数据 如 表 1 所 示 。 


i | 
图 2 新 浪 微 博 数据 采集 原理 
表 1 北京 市 部 分 微 博 数据 收集 坐标 中 心 


经 度 :维度 


经 度 : 维 度 


115.719336:41.458578 
115.718926:41.317156 
116.843019:41.034312 
116.464051:40.751468 
115.908041:41.458578 
115.907221:41.317156 


117.030503:41.034312 
116.650735:40.751468 
116.096746:41.458578 
116.095516:41.317156 
117.217987:41.034312 
116.837419:40.751468 


根据 上 文采 用 的 微 博 数据 采集 方案 ， 同 一 条 微 
博信 息 可 能 被 重复 收集 , 存在 数据 宛 余 的 问题 (如 图 
2 的 ABCDEFGHI 区 域 的 微 博 )， 占 用 了 大 量 不 必要 
的 磁盘 空间 ， 其 次 重复 的 数据 还 会 对 系统 的 性 能 
事件 检测 效果 的 有 效 性 带 来 很 大 影响 。 在 微 博 数据 
属性 中 , 微 博 ID 是 可 以 唯一 标识 一 条 微 博 的 字段 ， 
可 以 通过 保持 该 字段 的 唯一 性 (Unique)， 筛 选 掉 重 
复 的 微 博信 息 ， 最终 得 到 实验 所 需 数据 ， 部 分 数据 
如 表 2 所 示 。 
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表 2 地 理 微 博 数据 
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用 户 ID 发 布 时 间 纬度 经 度 转发 数 评论 数 粉丝 数 微 博 ID 微 博 内 容 
Pave 听 说 今天 秀一 下 北京 的 
2142578445 12:56:56 3963398 116.32463 0 0 81 3832238061664418 ”蓝天 会 有 好 多 人 点 赞 ? 
H http://t.cn/z8AUYaH 
2015-04-16 早 安 [太阳 ] 
578044924 39.4442 116.301 0 16 3832178343107815 
PG ? 08:59:38 2 $ vent ante http://t.cn/RACLQ8g 
dizdi 9 级 风 过 后 的 北京 早晨 天 气 真 棒 
2639854301 39.61742 116.3031966 0 218 3828546399278653 ”北京 的 好 天 气 还 真是 风 吹 出 来 


08:47:29 


的 http:Wt.cn/z8ASTVL 


3 ” 微 博 特征 地 理 规律 性 构建 指标 和 过 程 


3.1 ” 微 博 地 理 规律 性 的 构建 指标 

为 了 能 够 对 微 博 事件 进行 检测 ， 必 须 在 已 获得 的 
微 博 数据 的 基础 上 评估 微 博 的 地 理 规律 性 指标 。 本 文 
主要 针对 微 博 数 量 、 微 博 被 转发 数量 、 微 博 被 评论 数 
量 、 用 户 活跃 强度 、 用 户 移动 强度 5 个 指标 对 微 博 的 
地 理 规律 性 进行 构建 ， 如 图 3 所 示 : 


“ERY :人 群 移动 轨迹 5 :用 户 发 布 、 评 论 、 
PBL — ARES alas fae Pe 


图 3 微 博 地 理 规律 性 指标 


首 标 制定 的 依据 如 下 : 

(1) 微 博 发 布 数量 : 微 博 用 户 在 公开 表达 动机 的 
驱使 下 , 会 通过 微 博 针对 某 事 件 公 开发 表 言 论 和 宣 泥 
自己 的 情绪 。 此 外 , 相当 一 部 分 用 户 受 到 社会 提升 动 
机 的 影响 , 为 了 获得 更 多 关注 和 认可 , 吸引 更 多 的 粉 
丝 , 它们 会 积极 更 新 微 博 的 内 容 。 因 此 , 在 特定 的 时 间 
段 里 , 该 区 域内 的 微 博 发 布 数量 很 有 可 能 会 偏离 正常 
Bog, 

(2) 用 户 活跃 强度 : 指 在 一 定 的 时 间 范 围 内 发 布 
至 少 一 条 微 博 的 人 数 的 总 和 。 突 发 性 的 事件 发 生 后 ， 
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微 博 用 户 在 公开 表达 和 社会 提升 动机 的 驱使 下 , 会 纷 
纷 创作 发 布 关于 该 事件 的 微 博 内 容 。 用 户 活 跃 强度 很 
有 可 能 会 偏离 正常 水 平 。 

(3) 微 博 被 转发 数量 : 由 于 国内 外 各 种 因素 的 影 
w, 决定 了 社会 上 存在 着 诸多 矛盾 ,这 些 矛 盾 往往 会 
导致 人 为 性 突 发 事件 (如 恐怖 主义 、 抢 动 等 ) 的 发 生 。 
除 此 之 外 , 还 有 一 些 自 然 性 的 突 发 事件 (如 地 震 、 洪 水 
等 )。 突 发 性 事件 是 社会 如 论 关注 的 焦点 , 微 博 用 户 会 
对 反映 突 发 性 事件 的 微 博 进行 转发 ,， 因此 转发 数量 很 
有 可 能 偏离 正常 水 平 。 青 海 玉树 的 大 地 震中 ， 有 微 博 
用 户 通过 微 博 发 布 救援 信息 :“ 玉 树 地 震 灾区 靠 西 100 
公里 有 个 叫 隆 宝 镇 的 地 方 受灾 严重 ， 目 前 尚 无 救援 队 
伍 抵 达 ”。 这 条 微 博 经 过 微 博 用 户 的 大 量 转发 ， 最 终 引 
起 了 相关 政府 部 门 的 重视 有效 弥补 了 主流 媒体 的 信 
息 盲 点 "9。 

(4) 微 博 被 评论 数量 : 对 于 本 地 区 突 发 性 事件 的 
微 博 ， 当 地 微 博 用 户 会 对 其 进行 持续 的 关注 ， 同 时 往 
往 会 对 此 表达 自己 的 观点 、 建 议和 情感 等 。 此 外 , 用 
户 在 转发 微 博时 ， 也 会 对 微 博 进行 评论 ,这 就 会 导致 
该 条 微 博 将 获得 大 量 的 用 户 评论 。 

(5) 用 户 移动 强度 : 人 群 的 移动 往往 和 一 定 的 突 
发 性 事件 有 着 密切 的 关系 。 按 照 用 户 移动 类 型 可 以 分 
为 三 种 : 移入 、 移 出 和 本 地 移动 。 移 入 是 指 人 群 从 其 
他 区 域 涌 入 本 区 域 , 移出 是 指 人 群 从 本 区 域 移 到 其 他 
区 域 , 本 地 移动 是 指 在 本 区 域内 移动 , 通常 本 地 移动 
往往 反映 的 是 人 们 日 常规 律 性 的 移动 轨迹 。 当 突 发 性 
事件 发 生 时 , 用户 的 移动 强度 会 处 于 一 个 非 正 常 的 区 
间 内 。 比 如 玉树 大 地 震 时 ， 有 大 量 的 人 和 群 为 了 逃避 灾 
难 , 纷纷 移出 到 其 他 区 域 ; 武汉 大 学 赏 樱 期 间 ， 每 天 
有 10-20 万 人 涌 入 校园 ,这 说 明 用 户 移动 强度 对 于 事 
件 检测 有 重要 的 意义 1。 
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微 博 地 理 规 律 性 的 构建 所 示 。 
(1) 微 博 特征 的 时 间 分 布 

根据 微 博 数 据 中 心 发 布 的 《2014 年 微 博 用 户 发 
展 报告 》5 的 数据 显示 ， 微 博 用 户 每 日 微 博 发 布 、 
转发 、 评 论 行为 在 时 间 上 存在 极 大 的 相似 性 ， 如 图 4 
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图 4 微 博 发 布 、 转 发 、 评 论 、 活 跃 强度 、 移 动 强度 的 时 间 分 布 


总 第 267 期 2016 年 


第 2 期 


三 种 微 博 用 户 随时 间 变 化 的 趋势 大 致 如 下 : 从 0 
点 -5 点 , 用户 基 本 都 处 于 睡眠 状态 , 三 种 用 户 行为 的 
REME TREES, 处 于 低 水 平 状 态 。 从 5 点 -11 点 ， 

微 博 用 户 逐 渐 活 跃 起 来 ,三 种 用 户 行为 呈 逐 步 上 升 趋 
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势 。 从 11 点 -18 点 , 三 种 用 户 行为 略 有 波动 , 总体 上 
处 于 高 水 平 的 稳定 状态 。 从 18 点 -24 点 , 用户 往往 结 
束 了 一 天 的 工作 , 处 于 放松 休息 状态 有 足够 的 时 间 
和 精力 来 发 布 、 转 发 、 评 论 微 博 , 三 种 用 户 行为 又 呈 
现 出 了 上 升 趋势 , 在 22 点 -23 点 , 三 种 用 户 行为 均 达 
到 峰值 。 在 这 一 时 段 , 用 户 的 微 博 发 布 数量 占 全 天 微 
博 发 布 总 量 的 6.53%, 转发 微 博 数 量 占 全 天 微 博 转发 
总 量 的 6.37%, 评论 微 博 数量 占 全 天 微 博 评论 总 量 的 
7.61%。 因 此 , 本 文 按照 以 上 4 个 时 段 , 对 一 天 的 微 博 
数据 进行 划分 ,进而 发 现 各 个 时 段 的 微 博 特征 。 此 外 ， 
微 博 用 户 活 路 强度 和 人 群 移动 强度 也 与 用 户 的 作息 时 
间 息 息 相 关 , 具有 类 似 的 时 间 分 布 特性 。 

(2) 微 博 特征 的 空间 分 布 

由 于 自然 条 件 、 经 济 发 展 、 文 化 传统 的 不 同 , 不 
同 地 域 的 微 博 用 户 行为 存在 显著 性 的 差异 , 如 图 5 所 
示 。 北 上 广 以 及 江浙 地 区 这 些 经 济 实力 雄厚 ， 人 口 密 
度 大 的 省 份 , 微 博 用 户 分 布 较为 密集 且 活 路 , 产生 了 
大 部 分 的 微 博 数 据 。10 省 的 微 博 月 活跃 人 数 之 和 达到 
T 45.6%. 


广东 10% 
北京 8.70% 
浙江 4.40% 


江苏 4.20% 


其 他 
54.40% 
上 海 3.20% 


AS 新 浪 微 博 月 活跃 人 群 省 份 分 布 

为 了 降低 地 区 差异 性 的 影响 , 本 文采 用 K-means 
限 类 方法 "使 得 同类 中 的 微 博 地 区 差异 性 小 , 不 同 
类 中 的 微 博 地 区 差异 性 较 大 ,达到 高 内 聚 、 低 耦合 的 
效果 。.K-means 算法 存在 两 个 缺陷 : 聚 类 中 心 的 个 数 开 
需要 用 户 事先 给 定 , 但 应 该 把 数据 对 象 分 成 多 少 个 类 
别 才 最 合适 是 无 法 事先 确定 的 ; K-means 需要 人 为 地 
或 者 算法 随机 地 确定 初始 聚 类 中 心 , 不 同 的 初始 聚 类 
中 心 可 能 导致 完全 不 同 的 聚 类 效果 。 为 了 减轻 两 大 缺 
陷 的 影响 , 本 文 提 出 如 下 两 个 对 策 : 通过 多 次 对 微 博 
数据 聚 类 效果 进行 评价 , 得 出 一 个 实验 性 的 K 值 , 用 
该 值 作 为 聚 类 个 数 ; 可 以 借鉴 K-means++ 算 法 的 思想 
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在 某 种 程度 上 解决 随机 性 的 问题 。 结 合 微 博 用 户 的 区 
域 性 的 特点 , 城市 政府 部 门 所 在 点 经 济 发 达 、 人 口 密 
EK, 微 博 用 户 活 跃 度 高 ,成 为 聚 类 中 心 的 可 能 性 最 
大 ,因此 可 以 将 其 作为 初始 聚 类 中 心 之 一 , 按照 
K-means++ 的 初始 聚 类 中 心 之 间 的 相互 距离 要 尽 可 能 
远 的 原则 , 确定 其 他 K-1 个 聚 类 中 心 。 通 过 使 用 改进 的 
K-means 算 法 对 表 2 中 的 数据 按照 经 度 和 纬度 对 收集 到 
的 微 博 数据 进行 聚 类 分 析 , 最 终 得 到 K 个 聚 类 中 心 点 。 

(3) 微 博 的 地 理 规 律 性 构建 过 程 

通过 时 间 和 空间 维度 的 处 理 , 削弱 了 时 空 差异 性 
对 微 博 数据 特征 的 影响 , 但 是 样本 数据 的 收集 期 间 ， 
很 可 能 也 发 生 了 一 些 突 发 事件 ,消除 这 些 突 发 事件 的 
影响 , 对 于 总 结 微 博 的 地 理 规律 性 特征 是 至 关 重 要 的 。 

使 用 箱 线 图 排除 这 些 异常 点 的 影响 。 箱 线 图 反映 
了 数据 资料 的 最 大 值 、 上 四 分 位 数 、 中 位 数 、 下 四 分 
位 数 、 最 小 值 5 个 统计 量 ， 此 外 箱 线 图 还 反映 出 资料 
中 的 异常 值 。 这 里 借用 常用 的 异常 值 判断 标准 ,将 数 
据 资 料 中 超过 上 四 分 位 数 1.5 倍 四 分 位 距 (上 四 分 位 数 
+1.5x 四 分 位 距 ) 或 者 低 于 下 四 分 位 数 1.5 倍 四 分 位 距 
(下 四 分 位 数 -1.5x 四 分 位 距 ) 的 数据 判定 为 异常 值 。 通 
过 5 个 指标 的 箱 线 图 ,去除 异 常 值 , 将 最 大 值 和 最 小 
值 之 间 的 微 博 数 据 视 为 正常 值 , 用 来 计算 5 个 指标 正 
常 的 数量 水 平 ， 即 微 博 的 地 理 规 律 性 特征 。 与 图 3 相 
比 , 图 6 中 微 博 的 发 布 、 转 发 、 评 论 及 微 博 用 户 活 跃 
强度 和 用 户 移动 强度 都 偏离 了 正常 水 平 ,因此 要 把 这 
样 的 异常 值 去 掉 。 图 6 中 显示 了 时 间 段 11 点 -18 点 的 
微 博 异 常数 据 的 处 理 结果 。 
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图 6 微 博 数据 去 除 异 常 值 
针对 预 处 理 过 后 的 微 博 数据 ， 就 可 以 抽取 五 维 指 
标的 地 理 规 律 性 特征 : 微 博 的 发 布 数量 通过 分 别 累 加 
特定 空间 的 各 个 时 间 段 的 微 博 数量 得 到 ; 微 博 转发 、 


评论 数量 通过 累加 特定 空间 的 各 个 时 间 段 的 所 有 微 博 
的 转发 数 和 评论 数 获得 ;用 户 活跃 度 通过 累加 特定 空 
间 的 各 个 时 间 有 段 发 布 微 博 的 用 户 数量 计算 , 某 用 户 在 
该 时 间 段 内 不 管 发 布 多 少 条 微 博 ,都 将 活跃 度 记 为 1; 
通过 用 户 前 后 两 次 发 微 博 的 经 度 和 纬度 值 计算 得 到 用 
户 移动 距离 , 将 用 户 的 移动 距离 的 累加 之 和 作为 用 户 
移动 强度 。 

以 收集 到 的 连续 一 周 内 的 数据 做 为 训练 样本 ， 对 
数据 样本 进行 K-means 3828, 将 所 有 的 微 博 数据 划分 
到 对 应 的 类 内 ,得 到 K 个 聚 类 中 心 , 将 每 个 聚 类 内 的 
微 博 数据 按照 0 点 -5 点 、5 点 -11 点 、11 点 -18 点 和 
18 点 -24 点 这 4 个 时 段 进行 划分 , 得 出 各 个 时 段 内 的 
用 户 微 博 发 布 、 转 发 、 评 论 数 量 、 微 博 活跃 用 户 数量 和 
人 群 移动 活跃 性 这 5 个 指标 的 微 博 地 理 规律 性 特征 。 


4 ” 微 博 事件 检测 框架 


4.1 微 博 数据 边界 划分 

对 于 日 常 的 微 博 数据 , 需要 将 其 划分 到 对 应 的 类 
中 ,从 而 才能 与 对 应 的 规律 性 进行 比较 。 对 空间 边界 
进行 划分 , 常用 的 方法 是 维 诺 图 局 (Voronoi Diagram). 
基本 思想 是 根据 聚 类 得 到 的 K 个 聚 类 中 心 , 采用 维 诺 
图 对 地 理 空 间 进 行 硬性 的 划分 出 多 边 形 边界 ， 如 果 微 
博 数据 经 纬度 落 在 多 边 形 范围 内 ， 就 将 该 微 博 数据 判 
定 到 这 个 聚 类 中 。 该 算法 要 想 判 定 微 博 数据 的 归 类 情 
Ol, 需要 比较 大 量 的 划分 边界 ,而 且 该 方法 可 能 把 距 
离 某 个 聚 类 中 心 很 近 的 点 , 划分 到 男 外 一 个 多 边 形 中 ， 
对 微 博 事 件 的 检测 效果 产生 影响 。 因 此 ， 本 文采 用 经 
典 的 KNNEC 最 近邻 分 类 算法 ,通过 投票 的 方式 将 待 
分 类 数据 划分 到 相应 的 类 中 ,从 而 实现 对 微 博 数据 边 
界 的 逻辑 上 的 划分 。 
4.2 ” 微 博 事件 检测 

微 博 事件 检测 的 具体 流程 如 下 : 

(1) 将 前 期 收集 到 的 一 周 内 的 带 有 经 度 和 纬度 的 
微 博 数据 作为 K-means 聚 类 算法 的 输入 ,最 终 得 到 K 
个 聚 类 ,， 即 划分 除了 开 个 空间 。 

(2) 将 每 个 聚 类 中 的 数据 按照 时 间 段 分 为 4 部 分 ， 
去 除 训练 样本 集中 的 异常 时 间 段 ， 目 的 是 为 了 排除 已 
发 微 博 事件 对 微 博 特征 的 地 理 规律 性 造成 干扰 。 

(3) 针对 训练 样本 数据 集 , 抽取 微 博 发 布 、 转 发 、 
评论 以 及 微 博 用 户 活 跃 度 和 用 户 移动 强度 5 个 指标 上 
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的 规律 性 特征 , 作为 比较 的 标准 , 将 其 保存 在 微 博 地 
理 规 律 性 数据 库 中 。 

(4) 随 着 时 间 的 推移 , 原 有 的 微 博 规律 性 特征 可 
能 会 过 时 , 会 增加 对 微 博 事件 误 判 的 概率 ,因此 本 文 
设 定 了 一 定 的 过 期 时 间 , 到 期 以 后 对 整个 的 微 博 规律 
性 特征 进行 重 构 。 

(5) 通过 微 博 数据 采集 程序 ， 从 新 浪 微 博 每 天 收 
集 待 测 数据 ,存放 到 本 地 数据 库 中 。 

(6) 从 本 地 数据 库 读 取 数 据 , 采用 KNN 最 近邻 分 
类 算法 对 待 测 数据 进行 分 类 ，, 抽取 出 各 个 聚 类 中 竺 测 
数据 的 微 博 发 布 、 转 发 、 评 论 以 及 微 博 用 户 活 跃 度 和 
用 户 移动 强度 5 个 指标 上 的 特征 。 

(7) 将 步骤 3) 中 的 微 博 地 理 规律 性 特征 与 步骤 (6) 
中 的 日 常 微 博 地 理 特征 进行 比较 ， 审查 各 个 指标 是 否 偏 
离 了 正常 水 平 ,， 从 而 判断 是 否 发 生 了 重大 事件 ， 如 果 发 
生 了 重大 事件 , 则 发 出 事件 预警 ， 否则 不 做 任何 处 理 。 
4.3 ” 微 博 事 件 分 类 

根据 事件 的 发 生 过 程 、 机 理 和 性 质 , 将 微 博 事件 
分 为 5 类 : 自然 灾害 类 (如 地 震 、 洪水 等 )、 公共 卫 生 事 
件 类 (如 食品 安全 、 动 物 疫情 等 )、 社 会 安全 事件 类 ( 悉 
怖 秦 击 、 群 体 性 事件 )、 事 故 灾害 类 (如 环境 污染 、 煤 
矿 击 塌 等 )、 娱 乐 休闲 类 (如 明星 丑闻 、 电 视 影评 等 )。 
通过 微 博 事件 检测 框架 发 现 指标 不 正常 的 聚 类 ， 人 工 
阅读 聚 类 中 的 微 博 内 容 , 判定 这 个 聚 类 内 的 事件 类 型 
并 予以 标记 。 当 同一 聚 类 发 生 同 类 型 事件 时 , 微 博 用 
户 对 事件 的 反映 在 很 大 程度 上 是 类 似 的 。 因 此 ， 当 获 
得 一 定数 量 的 带 有 标记 的 聚 类 数据 ( 见 表 3) 后 , 可 以 采 
FARES? "(Decision Tree) 的 分 类 方法 对 后 续 的 微 博 
事件 进行 事件 类 型 预测 。 

表 3 事件 标记 的 微 博 数据 
RE 发布 评论 转发 活跃 移动 事件 
ID 数量 数量 数量 人数 强度 类 型 
11 6891986 2414171 6790904 4571025 5805603 自然 灾害 
23 6175992 4852622 3375413 2667451 4079429 公共 卫生 
54 9202388 6691605 3127106 4605503 8500567 事故 灾害 
67 4442551 5477037 7880400 1586587 4663537 娱乐 休闲 
73 9416855 1358961 8927051 8459759 5438189 社会 安全 


4.4 微 博 事 件 摘要 抽取 
通过 微 博 事件 分 类 框架 , 可 以 大 致 了 解 发 生 了 什 
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么 类 型 的 事件 。 要 想 知道 具体 发 生 了 什么 事件 , 就 需要 
对 不 正常 聚 类 内 的 微 博 数据 进行 摘要 提取 操作 .本文 抽 
取 热 度 高 的 5 条 微 博 返 回 , 作为 对 应 事件 类 型 的 摘要 ， 
事实 证 明 该 种 方法 是 简单 而 有 效 的 。 微 博 的 热度 可 以 通 
过 博文 的 评论 数 、 转 发 数 和 用 户 的 粉丝 数 计 算 。 微 博 的 
评论 数 越 多 , 说 明 存 在 大 量 微 博 用 户 针对 微 博 内 容 进 
行 激 烈 的 讨论 , 表达 自己 的 观点 看 法 。 如 果 用 户 对 微 博 
内 容 感 兴趣 , 会 对 其 进行 转发 , 用 户 转发 行为 可 以 衡量 
微 博 热度 蔓延 的 强度 ， 而 微 博 评论 数 、 转 发 数 与 用 户 粉 
丝 数 之 间 存 在 密切 联系 , 用 户 粉 丝 数 的 多 少 会 影响 用 
户 评论 和 转发 的 数量 。 微 博 用 户 的 粉丝 数 符合 寡 律 分 
布 ， 少 部 分 用 户 拥 有 大 量 的 粉丝 , 用户 粉丝 可 以 实时 接 
受 被 关注 者 发 布 的 信息 ,因此 粉丝 越 多 的 用 户 发 布 的 
言 息 影响 力 更 大 。 基于 微 博 的 转发 数 、 评 论 数 和 用 户 的 
粉丝 数 , 本 文 提 出 微 博 的 热度 计算 公式 如 下 ; 
Hot(W,)=aRwi!?+BCyi?+Klog(FL wit L) (1) 

其 中 , a, B 和 x 是 三 个 权重 常数 ,a、B 取 值 为 2, K 
取 值 为 1, Rwi 是 微 博 Wi 一 天 内 被 转发 的 次 数 , Cwi 是 微 
博 Wi 一 天 内 被 评论 的 次 数 , FLwi 是 微 博 用 户 粉 丝 数 。 
根据 微 博 热 度 计算 公式 ， 可 以 计算 出 每 一 条 原始 微 博 
的 热度 值 , 按照 热度 值 排序 , 返回 热度 最 高 的 5 条 微 
博 , 作为 微 博 事件 的 摘要 。 


5 实验 分 析 及 其 改进 


51 实验 结果 数据 分 析 
本 文 将 收集 到 的 2015 年 4 月 15 日 的 微 博 数 据 使 用 


ChinaX iv 合 作 期 刊 


— EARR 


KNN 算 法 分 到 相应 的 聚 类 中 ,计算 微 博 数据 的 发 布 数 
量 、 评 论 数 、 转 发 数 以 及 用 户 活 跃 度 和 移动 强度 5 项 指 
标 ， 与 所 在 聚 类 中 的 微 博 数据 的 地 理 规律 性 特征 进行 
比较 ,结果 发 现存 在 异常 的 聚 类 , 在 18 点 -24 点 时 间 段 
内 , 微 博 发 布 数量 和 微 博 用 户 活跃 度 都 高 于 正常 水 平 ， 
如 图 7 和 图 8 所 示 。 用 户 移动 强度 低 于 正常 水 平 , 用户 微 
博 评论 和 转发 数量 高 于 中 位 数 。 
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图 7 微 博 发 布 数量 特征 比较 
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图 8 微 博 活跃 用 户 数量 比较 


表 4 微 博 事件 摘要 


微 博 TD 转发 数 评论 数 粉丝 数 ”热度 值 


微 博 内 容 


# 北 京 沙尘暴 #[ 沙 尘 暴 入 京 了 [ 衰 ] ! ] 北 京 市 气象 台 15 日 17 时 40 分 升级 发 
布 沙尘暴 黄色 预警 信号 ,预计 傍晚 到 夜间 ， 本 市 将 出 现 沙 侍 暴 天 气 , 能 


3831952493218651 6032 2777 4993730 267.425 


见 度 小 了 


P 1000 米 , 注意 防范 ! 好 像 电影 《 星 际 穿越 》 世 界 末日 的 即 视 感 


AKA! 图 自 网 友 。 
[7 秒 ! 看 沙尘暴 如 何 “ 否 没 "CBD[ 衰 ]] 今 天 ,北京 遭遇 近 13 年 来 最 强 沙 尘 


3832015281202961 3432 1334 34385739 197.751 


RA, 北京 商务 中 心 区 (CBD)8 44 AY BGR AE EB, 天 空 变 黄 变 暗 ,能 
见 度 迅速 降 到 1 公里 以 下 ! 把 这 8 分 钟 缩 成 7 秒 ， 见 识 沙 尘 暴 的 厉害 : 秒 


拍 视 频 今天 , 你 被 沙子 “侵袭”* 了 吗 ? 


3831970695789553 3344 1253 7756762 


3831953021194620 2982 879 31435947 176.009 


193.340 大 家 注意 安全 ! [现场 视频 : 北京 沙尘暴 肆虐 能 见 度 低 白 昼 瞬 间 变 黑夜 ] 
[漫天 黄 沙 ， id 


此 时 的 北方 ] 正 实时 播报 北方 部 分 地 区 遭遇 


http://t.cn/RA90Ch8 


[Lik teh eb BAe dE 11 省 区 市 ! 北京 发 大 风沙 侍 双 预警 ] 今 天 北京 、 天 
津 、 河 北 、 新 疆 、 内 蒙古 、 上 甘肃、 宁夏、 陕西、 山西、 辽宁 、 吉 林 等 地 有 


3831961162056497 1797 1033 40594335 156.671 


扬 沙 或 浮尘 ,局 地 沙尘暴 。 目 前 北京 已 发 大 风 黄 色 预 警 和 沙 尘 蓝 色 预 警 , M 


计 今 晚 京 城 有 六 七 级 风 , 阵风 9 级 并 伴 沙 全 。 今天 , 你 那儿 吹 沙 了 吗 ? 
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为 了 进一步 了 解 到 该 聚 类 中 的 区 域 发 生 了 什么 事 
件 , 根据 公式 (1) 计 算数 据 库 中 每 条 微 博 的 热度 值 ， 按 
照 热 度 值 高 低 进行 排序 , 返回 热度 值 最 高 的 5 条 微 博 
作为 微 博 事件 的 摘要 ( 见 表 4)。 通 过 阅读 摘要 ,用 户 就 
能 够 及 时 发 现 微 博 事件 ， 从 而 辅助 事件 相关 部 门 以 及 
个 人 提前 作出 决策 , 减 小 事件 带 来 的 负面 影响 。 

通过 表 4 中 的 微 博 发 现 , 北京 地 区 遭遇 了 恶劣 的 
沙尘暴 天 气 ， 因 此 北京 微 博 用 户 都 发 表 了 大 量 的 原创 
性 微 博 ， 对 沙尘暴 天 气 进 行 跟踪 报道 ， 同 时 北京 地 区 
微 博 用 户 表达 了 对 恶劣 天 气 的 不 满 情 绪 ， 因 此 微 博 发 
布 数量 和 用 户 活跃 度 超过 正常 水 平 。 

从 图 9 中 , 可 以 看 到 在 18 点 -24 点 用 户 移动 强度 
低 于 正常 值 。 由 于 该 时 段 北 京 地 区 正在 遭遇 沙尘暴 天 
气 ， 能 见 度 极 低 ， 首 要 污染 物 从 PM2.5 变 为 PM10。 
市 环保 监测 中 心 数 据 显示 ，18 时 开始 ,多 个 站 点 的 
PM10 每 小 时 浓度 直线 上 升 。 北 京 监测 网 络 35 个 站 
点 PM10 浓 度 均 超过 1000 人 微克 /立方 米 ,， 达 重度 污染 。 
在 这 种 极其 恶劣 的 天 气 情况 下 , 北京 地 区 的 微 博 用 
户 会 避免 外 出 活动 ,这 就 造成 了 用 户 移动 强度 低 于 
正常 水 平 。 
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图 9 微 博 用 户 移动 强度 比较 


从 图 10 和 图 11 可 以 看 到 , 用户 评论 数 和 转发 数 
均 高 于 中 位 数 , 但 是 仍 在 正常 值 范围 内 。 微 博 用 户 
看 到 关于 沙尘暴 的 微 博 ， 同 时 由 于 自己 身 临 其 境 ， 
正在 经 历 沙尘暴 ,这 就 大 大 增加 了 用 户 对 沙尘暴 微 
博 进行 评论 和 转发 的 概率 。 微 博 用 户 在 信息 分 享 和 
公开 表达 动机 的 驱使 , 纷纷 对 沙尘暴 天 气 的 微 博 进 
行 评 论 或 转发 评论 ,表达 自己 的 感受 、 情 绪 和 意见 
等 ， 这 就 造成 了 用 户 评论 数 和 转发 数 高 于 中 位 数 的 
现象 。 
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图 10 微 博 用 户 评论 数量 比较 
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图 11 微 博 用 户 转 发 数量 比较 图 


S.2 ”结果 改进 分 析 

为 了 更 加 清晰 直接 地 显示 北京 沙尘暴 事件 的 发 展 
趋势 , 本 文通 过 改进 迟 呈 英 等 四 提出 的 “话题 指数 ” 
对 北京 沙尘暴 事件 的 生命 周期 进行 分 析 。 与 网 络 新 闻 
热点 话题 相 比 , 微 博 事 件 具 有 周期 性 短 的 特点 ， 因 此 
本 文 对 话题 指数 进行 改进 , 将 时 间 间 隔 设 定 为 小 时 ， 
相应 提出 了 微 博 事件 指数 (Event Index) 的 概念 。 将 微 博 
指数 定义 为 每 小 时 内 微 博 发 布 数 增长 量 与 第 一 小 时 内 
的 微 博 增 长 量 比 值 的 权重 函数 ,计算 公式 如 下 : 

EI(E\)=(Pri(tj+1) —PEi(t;))*Pbase/PEi(ti) (2) 

其 中 ，Ei 表示 某 个 微 博 事件 ，PEi(t) 表 示 从 初始 时 
刻 到 4 时 刻 的 与 事件 E 相关 的 微 博 累积 量 ,PEi(t;1) 
-Pail(b) 表 示 ter 与 时刻 之 间 事件 相关 微 博 发 布 的 数 
Eo PEilti) 表 示 初 始 的 第 一 个 小 时 内 事件 相关 微 博 的 发 
布 数量 ,Pbsse 为 微 博 事 件 出 现 第 一 小 时 的 事件 指数 ， 给 
FE Poase=1。 如果 用 横 坐 标 表 示 时 间 ， 以 小 时 为 间隔 , 纵 
坐标 表示 微 博 事 件 指数 ， 可 以 得 到 一 条 连续 的 曲线 ， 
称 为 微 博 事件 发 展 趋势 曲线 。 

虽然 微 博 事件 在 某 个 单一 聚 类 中 被 检测 到 ,但 是 
微 博 事件 在 现实 世界 中 会 对 周围 区 域 产生 一 定 的 影 
响 ， 因 此 在 分 析 微 博 事 件 发 展 趋势 时 , 不 能 局 限 在 单 
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一 聚 类 中 ， 而 应 该 将 范围 扩展 到 整个 受 影响 的 区 域 。 

北京 微 博 用 户 在 2015 年 4 月 15 日 总 共 发 布 了 以 “ 沙 尘 
暴 " 为 主题 的 微 博 21 966 条 , 将 微 博 数据 以 小 时 为 间 
隔 进行 切 分 , 通过 公式 (2) 计 算 每 小 时 内 的 微 博 事件 指 
数 ， 如 表 5 Atm: 


根据 表 5 中 的 数据 , 采用 及 语言 作 图 对 沙尘暴 事件 
发 展 趋势 进行 可 视 化 分 析 。 从 图 12 中 可 以 发 现 ,4 月 15 
日 0 点 -9 点 , 由 于 沙尘暴 尚未 发 生 ， 对 于 沙尘暴 事件 只 
有 极 少量 用 户 关注 和 讨论 ,此 时 处 于 事件 的 潜伏 期 。 
9 点 -17 点 , 沙尘暴 事件 进入 萌动 期 , 此 阶段 沙尘暴 事 
件 已 经 初 现 端倪 , 微 博 事件 指数 呈现 出 一 定 的 波动 状 
态 。17 点 -18 点 30 分 , 微 博 用 户 对 沙尘暴 事件 的 关注 
迅速 提高 ,沙尘暴 事件 的 影响 范围 借助 微 博 平 台 急剧 
Pak, 微 博 事件 进入 加 速 期 , 这 一 剧烈 变化 与 沙尘暴 的 
爆发 时 间 是 吻合 的 。18 点 30 分 -19 点 30 分 , 沙尘暴 的 
时 间 指 数 的 提高 速率 放 缓 , 在 19 点 时 微 博 事件 指数 达 
到 最 大 值 2 118.25， 沙 尘 暴 事件 进入 成 熟 期 。 微 博 的 传 
播 特点 决定 了 其 用 户 的 注意 力 必然 是 有 限量 多 变 的 ， 
呈现 出 碎片 化 与 表面 化 的 趋势 ,所 以 很 难 在 微 博 上 对 
某 一 事件 进行 长 期 深入 的 关注 3I。 从 2015 年 4 月 15 
日 19 点 30 分 -4 月 16 H 24 点 , 随 着 沙尘暴 的 过 境 , 对 
用 户 生活 的 影响 力 减 小 , 用 户 对 沙尘暴 的 关注 力 转移 
到 其 他 的 事件 上 , 沙尘暴 事件 进入 到 了 衰退 期 。4 月 16 
日 6 点 -15 点 , 事件 指数 值 出 现 了 轻微 的 波动 趋势 。 通 
过 阅读 微 博 内 容 可 以 了 解 到 , 4 月 16 H, 北京 重 现 蓝天 
白云 , 微 博 用 户 纷纷 对 比 两 天 的 天 气 状况 , 发 表 了 一 定 
数量 的 微 博 , 造成 了 时 间 指 数 的 起 伏 的 状况 。 
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表 5 北京 沙尘暴 微 博 事件 指数 
微 博 。 人 微 博 微 博 微 博 
已 已 b 
时 间 指数 ”指数 时 间 指数 指数 
(4 月 GH (4 月 (4 月 
15H) 164) 15H) 164) 
0 点 -1 点 1 114.75 12 点 -13 点 16.25 48.75 
1-2 fh 1 32 13 点 -14 点 7.5 42.75 
2 点 -3 点 0 14.75 14 点 -15 点 14.5 38.75 
3 点 -4 点 0 7.25 15 点 -16 点 9.25 38.75 
4 点 -5 点 0.5 8.25 16 点 -17 点 33.75 26.75 
5 点 -6 点 0 8.25 17 点 -18 点 498.25 23.25 
6 点 -7 点 2 37.75 18 点 -19 点 2118.25 29.5 
7 点 -8 点 2.5 65.5 19 点 -20 点 927.5 23 
8 点 -9 点 10.75 101.5 20 点 -21 点 652.5 16.25 
9 点 -10 点 30 105 21 点 -22 点 477.75 20.25 
10 点 -11 点 29.75 85 22 点 -23 点 376.75 24 
11 点 -12 点 12.25 65 23 点 -24 点 ”269.5 18.5 
2500 
2000 
$m 1500 
= 
g 10007 
500} 
4J 16H 
0 + 
1 2 3 4 5 6 7 8 9 
图 12 
6 结 语 


本 文 设计 一 种 基于 IP 轮 替 的 多 用 户 的 微 博 数据 
采集 方案 , 实现 微 博 数据 的 高 效 采集 功能 。 针 对 采集 
到 的 微 博 数据 , 制定 了 微 博 发 布 数量 、 微 博 转 发 和 评 
论 数量 、 微 博 用 户 活跃 度 和 移动 强度 5 个 指标 , 衡量 
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沙尘暴 微 博 事件 发 展 趋势 


微 博 的 地 理 规 律 性 特征 .本 文 利用 K-means RI KNN 
分 类 和 决策 树 三 种 数据 挖掘 算法 , 提出 一 个 详细 的 微 
博 地 理 规 律 性 抽取 架构 ,设计 并 实现 了 微 博 事件 检测 
功能 。 通 过 微 博 事件 检测 实验 ,验证 了 该 微 博 事件 检 
测 方法 的 有 效 性 。 
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本 文 提出 的 微 博 事件 检测 架构 也 存在 一 些 需 要 改 
进 的 地 方 。 由 于 实验 条 件 的 限制 , 在 抽取 微 博 地 理 规 
律 性 特征 时 , 采用 的 样本 数据 偏 少 , 一 定 程度 上 影响 
了 事件 检测 框架 的 效果 ; 可 视 化 环节 需要 人 工 的 干预 ， 
没有 实现 完全 的 自动 化 处 理 流程 。 如 果 要 对 全 国 范围 
内 的 突 发 事件 进行 检测 ,就 要 处 理 海 量 的 微 博 数 据 ， 
这 将 会 影响 到 事件 检测 的 效率 。 为 了 解决 以 上 问题 , 未 
来 计划 采用 基于 分 布 式 文件 存储 和 计算 的 HadoopPo 平 
台 进 行事 件 检 测 系统 的 搭建 。 可 以 在 Hadoop 的 HDFS 
(Hadoop Distributed File System) 文 件 系统 的 基础 上 ， 
部 署 HBase 数据 库 , 进行 微 博大 数据 的 存储 , 利用 
Hadoop 的 MapReduce 进行 微 博 事件 检测 算法 的 实现 ， 
从 而 实现 全 国 范围 内 的 并 且 高 效率 的 微 博 事件 检测 。 
本 文采 用 K-means, KNN 和 决策 树 三 种 算法 对 微 博 数 
据 进 行 分 析 研 究 , Hadoop 生态 圈 里 的 开源 项 目 Mahout 
已 经 将 三 种 算法 MapReduce 化 , 可 以 很 方便 地 使 用 。 
对 于 微 博 事 件 可 视 化 模块 , 可 以 使 用 RR 语言 和 Hadoop 
的 结合 产物 RHadoop 完成 ， 最 终 实现 可 视 化 模块 的 自 
动 化 处 理 。 
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Analyzing Geographical Coordinates Data for Micro-blog Trending 
Events 


Li Jinhua An Zhongjie 
(School of Information Management, Central China Normal University, Wuhan 430079, China) 


Abstract: [Objective] This study aims to retrieve the trending events from the micro-blog platform with the help of 
data mining algorithms. [Methods] First, we collected micro-blog message with geographic coordinates from the most 
popular platform (the Sina Weibo) using its API service. Then, we used the K-means, KNN and decision trees 
algorithms to construct the geographical patterns of those collected posts. The number of published posts, re-tweets, and 
comments, as well as user activity and movement strength were also examined. Third, we compared these geographical 
patterns with the daily regional micro-blog data to identify breaking news in that area. [Results] We analyzed data 
collected on April 15 and April 16 of 2015 with the help of the proposed model, and found a trending event of “Beijing 
Sandstorm”. [Limitations] The sample size was small, which might influence the results. [Conclusions] Geographic 
coordinates could help us detect trending events on the Sina Weibo, and this new method will also support the 
government’s crisis management strategy and decision-making process. 
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